强化学习代理的长期目标是能够在复杂的现实场景中执行任务。使用外部信息是将代理扩展到更复杂问题的一种方式。然而,使用外部信息的不同方法之间普遍缺乏协作或互操作性。在这项工作中,在回顾受外部影响的方法的同时,我们提出了一个辅助强化学习的概念框架和分类法,旨在通过对学习过程中使用外部信息的各种方法进行分类和比较来促进协作。所提出的分类法详细说明了外部信息源与学习者代理之间的关系,强调了信息分解、结构、保留的过程,以及如何使用它来影响代理学习。除了回顾最先进的方法外,我们还确定了当前使用外部信息的强化学习流,以改进代理的性能和决策过程。这些包括启发式强化学习、交互式强化学习、从演示中学习、
主要关键词
![arXiv:2007.01544v2 [cs.AI] 2021 年 9 月 20 日PDF文件第1页](/bimg/6/64e6b23b0b0755ed5f76e9688799fe7e7358485a.webp)
![arXiv:2007.01544v2 [cs.AI] 2021 年 9 月 20 日PDF文件第2页](/bimg/d/d7e14a72ee700e35adb59cb3b3cd5528d5e36aed.webp)
![arXiv:2007.01544v2 [cs.AI] 2021 年 9 月 20 日PDF文件第3页](/bimg/f/fe17db1e6e8e17d558f7b17634ef2d50bfc0b179.webp)
![arXiv:2007.01544v2 [cs.AI] 2021 年 9 月 20 日PDF文件第4页](/bimg/f/fef189237a3f03a437f28b4d8faea25241bc19c0.webp)
![arXiv:2007.01544v2 [cs.AI] 2021 年 9 月 20 日PDF文件第5页](/bimg/c/ce08f55c9d84f7a8a7b31871969cdefc7f52ba48.webp)
